GPT-4模型架构:它比你想象的更简单
下图是根据许多小道消息还原出来的 GPT-4的架构图,小道消息来源包括:
1. 在硅谷的朋友
2. Twitter上的消息
3. 公开的新闻、技术报告和论文
架构图如下图所示,OpenAI 参考了 GLaM模型架构,但没有采用 GLaM模型中 MoE 和 Dense交替的方法,模型参数和 GPT-3(GPT-3.5的参数设置和 GPT-3一样)非常一致。Gating模块的具体实现没透露,有可能是简单的 Wx+b。图像输入有可能不是原始的 ViT,大小在几十B(10B~100B之间)。全部参数1T左右,并非220B*8=1760B(1.76T),每次推断时激活的参数在300B左右,约等于 Google 的 PaLM2的340B。图像理解部分没有开放的原因是“对齐”(SFT 和 RLHF) 方面并没有做的足够好,还在继续“调教”中。本文全部都是小道消息,如存在不符合事实之处,希望得到指正,评论或者私信皆可。一旦确认即更新本文,并公开(如果愿意公开)或匿名(如不愿意公开)感谢。
本号只有和通用人工智能有关的内容,会持续跟踪人工智能【大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习】有关的数据、算法、模型和创投,欢迎关注本公众号获得一手数据和知识。
许多消息其实在一些圈子里很早就开始传开了,只是大家都没有公开说出来。所以,搞生成式 AI,可能跟搞原子弹差不多,圈子里的人都知道怎么做,但大家都不说。知道的人觉得很简单,主要是缺钱/算力(缺铀);不知道的觉得很神秘!
另外,本人所写的珠峰书《知识图谱:认知智能理论与实战》一书配有教学 PPT,有兴趣开知识图谱课程的老师可阅读下面文章:
珠峰书《知识图谱:认知智能理论与实战》“升级”了:配套PPT,教学更easy!
另外2,最近AI 真的很卷,每天都有新东西。端午几天天天看论文,才补回了一点点!搞 AI 真的容易焦虑。这不,年初声势浩大的光年之外,现在传闻其老板王慧文因个人健康问题暂时休养了。本来我也想写一篇长文详细解析 GPT-4的架构积木如何搭建起来的,但也因身体问题,就随便写写啦。
如果觉得这篇文章对你有用,请随手点赞、关注、转发、在看、打赏!